课代表告诉你,为什么媒体很少跳预言家?
最近听到的一些“牢骚”让课代表不禁反思:为什么数据新闻很少做预测报道?
机智的课代表联想到了2020年美国大选。在这个节点,彭博社(Bloomberg)和华盛顿邮报(Washington Post)都不约而同对2020年特朗普支持率相较于2016年的变化进行了预测。不过,这波预言家互跳却出现了意外:彭博社的预测结果显示,2020大选特朗普在疫情更为严重的地区支持率将高于2016年;而华盛顿邮报的结论则恰恰相反。
要判断两者谁才是真正预言家,最直接的方式是站在2021年用最终的大选结果数据检验彭博社和华盛顿邮报的预测。分析结果显示,彭博社或许比华盛顿邮报更接近预言家。
课代表这就帮大家盘盘华盛顿邮报的预测在哪出了问题。或许,这一过程也能帮助回答“为什么媒体很少跳预言家”。
✦✧
从预测方式来看,彭博社和华盛顿邮报用于分析的疫情和大选数据主要来自美国院校数据库以及专业分析机构。虽然两者数据分析的节点设置并不相同,但由于分析方式的差异,因此数据节点的设置有其合理性。
数据源没问题,那分歧点到底在哪?可以发现,两家媒体衡量疫情严重程度的指标是不一样的。
⌂ 左图:新冠爆发下的投票地图 来源:彭博社;右图:新冠新增病例数地图 来源:华盛顿邮报
彭博社将死亡率作为衡量疫情严重程度的指标,而华盛顿邮报采用的则是新增病例数量。从纽约时报所制作的美国病例日增长和死亡数热力图中可以看出,新增病例数量多的东南部与死亡人数多的东北、西南沿海地区并不重合。
⌂ 左图:美国疫情新增病例数地图;右图:美国疫情死亡病例地图 来源:纽约时报
这也意味着,新冠疫情死亡率和新增病例数量所表达的含义有所差异。除却气候、生理等客观因素,死亡率一般与事后治疗相关,而新增病例数则与事前防控相关。
一前一后,到底谁更能准确预测大选态势?这取决于选民的痛点在事前防控还是事后治疗。美国广播公司(ABC)于2020年10月发布的一项民调显示,近 2/3 的选民对特朗普没有采取适当的预防措施来控制病毒的传播表示不满。
美国疫情爆发初,特朗普多次在公共场合拒戴口罩 来源:央视网
由此看来,特朗普对待新冠的事前措施似乎更能动摇民众的选择,华盛顿邮报所采取的分析维度看似更合理。
但通过计算比较选举日前死亡率最高的 10 个县在 2016 年和 2020 年对特朗普的支持率,可发现 2020 年特朗普支持率上升了 2.05%。同时,对11个摇摆州选举日病例新增数和两次大选中特朗普支持率的关系进行检验,结果却显示选举日前新增病例数量对各州的投票情况并未产生明显的影响,2020年特朗普的支持率在病例新增数较多的州(Florida、Wisconsin)相较于2016年甚至有着更为显著的上升。
到底是什么让华盛顿邮报最终“翻了车”?
1.州级数据模糊了县级差异
数据的颗粒度是蝴蝶的第一对“翅膀”。相比彭博社以“县”(County)为分析大选趋势的单位,华盛顿邮报用“州”(State)显然粗糙了许多,模糊了地区之间疫情严重程度的不平衡。
以摇摆州 Wisconsin 为例,Iron的新增病例数为4例,但 Milwaukee 一县的新增病例数却达到了1027例。因此,若将县之间的巨大差异用州级数据等闲视之,可能会给分析结果带来偏差。
2.疫情数据的“伪相关”
在2017年,华盛顿邮报就发表一篇名为《Places that backed Trump skewed poor; voters who backed Trump skewed wealthier》(《特朗普的后盾,地穷人富》),其中提到 2016 年大选中,特朗普在更为贫困的县具有更高支持率。2020 年的大选结果也印证了这一点:拜登支持县总 GDP 占到了 2018 年美国总GDP的 71%,而特朗普支持县仅有 29% 。
这或许侧面反映出,单一的病例新增率或死亡率是具有欺骗性的。受到所在地区经济水平、医疗水平等因素的影响,疫情无法与大选结果直接构成相关性
因此,彭博社的预测结果比起接近真相,倒不如说是“误打误撞”。正如记者在报道中将“丑话”说在了前头:“特朗普在许多农村、低人口县所获得的人气,奠定了他在高死亡地区的高支持率。”
✧✦
“是概率,不是答案”
数据分析蕴含的欺骗性让大多媒体依然以审慎的态度对待预测式报道。此前,特朗普在2016的“爆冷”当选就让许多媒体和机构反思:为什么民调和预测突然失灵了?
2016年大选尘埃落定后,纽约时报技术专栏发表《How Data Failed Us in Calling an Election》一文,反思数据和预测算法在“黑天鹅”事件面前失败的原因。他们得出的答案是:数据采集、分析、解释的过程出现漏洞,数字呈现方式具有缺陷,以及公众对数据价值的期待和现实效果存在偏差。
耶鲁大学医学信息学中心研究员 Mutalik 将大选预测比作天气预报,即使数十届总统选举的民调数据可供分析,提前几个月和提前几周的分析结果依然极有可能大相径庭:“就算使用精度最高的模型,也难以预测超出10日后的天气,因为许多细微变化会导致巨大偏差。”
数据驱动决策让不少行业尝到的“甜头”对公众和媒体来说是个甜蜜的陷阱——数据本身提供的多元观察视角、数据挖掘所节省的调查成本,以及数据分析充满潜力的盈利空间。但数据科学实为需要权衡利弊的技术:可以通过量化的、纵深的、别出心裁的角度看待一般事务,但也是一种生硬的工具,缺少理解的语境,容易模糊个体之间的差异。
彭博社和华盛顿邮报在大选上的同途却异归再次表明,媒体迫切利用数据却并未仔细思考其局限性。麻省理工学院斯隆管理学院教授Erik Brynjolfsson认为,转变人们的数据观是当务之急:“数据科学是一种工具,给的不一定是答案,而是概率。”
作者 周鑫雨
https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv
https://www.census.gov/data/datasets/time-series/demo/popest/2010s-counties-total.html#par_textimage_739801612
https://libguides.mit.edu/election2020
https://www.washingtonpost.com/news/politics/wp/2017/12/29/places-that-backed-trump-skewed-poor-voters-who-backed-trump-skewed-wealthier/
https://www.brookings.edu/blog/the-avenue/2020/11/09/biden-voting-counties-equal-70-of-americas-economy-what-does-this-mean-for-the-nations-political-economic-divide/
https://www.nytimes.com/interactive/2021/us/covid-cases.html
https://www.washingtonpost.com/politics/poll-post-abc-presidential/2020/10/10/303b2230-0b1d-11eb-859b-f9c27abe638d_story.html
◒◡◒
┊推 - 荐 - 阅 - 读┊